We consider the estimation of average treatment effects in observational studies without the standard assumption of unconfoundedness. We propose a new framework of robust causal inference under the general observational study setting with the possible existence of unobserved confounders. Our approach is based on the method of distributionally robust optimization and proceeds in two steps. We first specify the maximal degree to which the distribution of unobserved potential outcomes may deviate from that of obsered outcomes. We then derive sharp bounds on the average treatment effects under this assumption. Our framework encompasses the popular marginal sensitivity model as a special case and can be extended to the difference-in-difference and regression discontinuity designs as well as instrumental variables. Through simulation and empirical studies, we demonstrate the applicability of the proposed methodology to real-world settings.
translated by 谷歌翻译
以富有成效和有效的方式处理和分析表格数据对于在医疗保健等领域的成功应用程序中的成功应用至关重要。但是,缺乏代表和标准化表格信息的统一框架对研究人员和专业人员都构成了重大挑战。在这项工作中,我们介绍了TabText,一种利用语言的非结构化数据格式的方法论,可以有效,准确地从不同的表结构和时间段编码表格数据。我们使用两个医疗保健数据集和四个预测任务,这些任务通过TabText提取的特征优于传统处理方法提取的那些提取的任务,而这些任务的功能却高于2-5%。此外,我们分析了框架对缺失价值观,元信息和语言描述性句子表示的不同选择的敏感性,并为赢得改善绩效的策略提供了见解。
translated by 谷歌翻译
人工智能(AI)系统在接下来的几十年中有很大的希望可以改善医疗保健。具体而言,利用多个数据源和输入模式的AI系统有望成为一种可行的方法,可以在广泛的应用程序中提供更准确的结果和可部署的管道。在这项工作中,我们提出并评估一个统一的医学中的整体AI(HAIM)框架,以促进利用多模式输入的AI系统的生成和测试。我们的方法使用可通用的数据预处理和机器学习建模阶段,可以很容易地适应医疗保健环境中的研究和部署。我们通过训练和表征基于MIMIC-IV-MM的14,324个独立模型来评估我们的HAIM框架,该模型是一种多模式临床数据库(n = 34,537个样本),其中包含7,279个独特的住院和6,485名患者,涵盖了4个数据模态的所有可能输入组合(即,所有可能的输入组合)表格,时间序列,文本和图像),11个独特的数据源和12个预测任务。我们表明,该框架可以始终如一地生产出在各种医疗保健示范中超过相似的单源方法的模型(乘以6-33%),包括10种不同的胸部病理学诊断,以及休息时间和48小时的死亡率预测。我们还使用Shapley值量化了每种模式和数据源的贡献,这证明了数据类型重要性的异质性以及在不同医疗保健相关的任务中多模式输入的必要性。我们的整体医学AI(HAIM)框架的可推广性能和灵活性可以为未来的临床和运营医疗环境中的多模式预测系统提供有希望的途径。
translated by 谷歌翻译
许多最先进的对抗性培训方法利用对抗性损失的上限来提供安全保障。然而,这些方法需要在每个训练步骤中计算,该步骤不能包含在梯度中的梯度以进行反向化。我们基于封闭形式的对抗性损失的封闭溶液引入了一种新的更具内容性的对抗性培训,可以有效地培养了背部衰退。通过稳健优化的最先进的工具促进了这一界限。我们使用我们的方法推出了两种新方法。第一种方法(近似稳健的上限或arub)使用网络的第一阶近似以及来自线性鲁棒优化的基本工具,以获得可以容易地实现的对抗丢失的近似偏置。第二种方法(鲁棒上限或摩擦)计算对抗性损失的精确上限。在各种表格和视觉数据集中,我们展示了我们更加原则的方法的有效性 - 摩擦比最先进的方法更强大,而是较大的扰动的最新方法,而谷会匹配的性能 - 小扰动的艺术方法。此外,摩擦和灌注速度比标准对抗性培训快(以牺牲内存增加)。重现结果的所有代码都可以在https://github.com/kimvc7/trobustness找到。
translated by 谷歌翻译
我们为学习限制建立了混合整数优化的广泛方法论基础。我们提出了一种用于数据驱动决策的端到端管道,其中使用机器学习直接从数据中学习限制和目标,并且培训的模型嵌入在优化配方中。我们利用许多机器学习方法的混合整数优化 - 焦点,包括线性模型,决策树,集合和多层的感知。对多种方法的考虑允许我们捕获决策,上下文变量和结果之间的各种潜在关系。我们还使用观察结果的凸船体来表征决策信任区域,以确保可信的建议并避免推断。我们有效地使用列生成和聚类来纳入这个表示。结合域驱动的约束和客观术语,嵌入式模型和信任区域定义了处方生成的混合整数优化问题。我们将此框架实施为从业者的Python包(OptiCl)。我们展示了化疗优化和世界食物计划规划中的方法。案例研究说明了在生成高质量处方的框架中的框架,由信任区域添加的值,加入多个机器学习方法以及包含多个学习约束的框架。
translated by 谷歌翻译
深度学习有很多兴趣解决了在现实世界环境中应用神经网络模型的挑战。特别是,三个领域得到了相当大的关注:对抗性鲁棒性,参数稀疏性和输出稳定性。尽管有许多独立解决这些问题的尝试,但很少有效地解决了挑战。在本文中,我们通过提出组合解决这些问题的新型制定来解决构建整体深层学习模型的这个问题。关于表格和MNIST数据集的现实世界实验表明,我们的配方能够同时提高传统深度学习模型的准确性,鲁棒性,稳定性和稀疏性。
translated by 谷歌翻译
As machine learning algorithms start to get integrated into the decision-making process of companies and organizations, insurance products are being developed to protect their owners from liability risk. Algorithmic liability differs from human liability since it is based on a single model compared to multiple heterogeneous decision-makers and its performance is known a priori for a given set of data. Traditional actuarial tools for human liability do not take these properties into consideration, primarily focusing on the distribution of historical claims. We propose, for the first time, a quantitative framework to estimate the risk exposure of insurance contracts for machine-driven liability, introducing the concept of algorithmic insurance. Specifically, we present an optimization formulation to estimate the risk exposure of a binary classification model given a pre-defined range of premiums. We adjust the formulation to account for uncertainty in the resulting losses using robust optimization. Our approach outlines how properties of the model, such as accuracy, interpretability, and generalizability, can influence the insurance contract evaluation. To showcase a practical implementation of the proposed framework, we present a case study of medical malpractice in the context of breast cancer detection. Our analysis focuses on measuring the effect of the model parameters on the expected financial loss and identifying the aspects of algorithmic performance that predominantly affect the risk of the contract.
translated by 谷歌翻译
我们考虑具有稀疏限制的缓慢变化回归模型中参数估计问题。我们将问题标制作混合整数优化问题,并证明可以通过新颖的精确放松来完全作为二元凸优化问题的重整。放松利用摩洛队的逆转录的新平等渗透了非凸面目标函数,同时与所有可行的二进制点上的原始目标重合。这使我们能够通过切割平面型算法更有效地更有效地解决问题并以优化的优化。我们开发了一种高度优化的这种算法的实现,这基本上提高了直接实现的渐近计算复杂性。我们进一步开发了一种启发式方法,保证生产可行的解决方案,并且正如我们经验说明的那样,为二进制优化问题产生高质量的热启动解决方案。我们在合成和现实世界数据集上展示了所得算法优于各种度量的可比时期的竞争配方,包括采样超出预测性能,支持恢复精度和假阳性率。该算法使我们能够培训具有10,000个参数的模型,对噪声具有鲁棒,并且能够有效地捕获数据生成过程的潜在缓慢改变支持。
translated by 谷歌翻译
本文描述了一个新颖的机器学习(ML)框架,用于热带气旋强度和轨道预测,结合了多种ML技术并利用了多种数据源。我们的多模式框架(称为Hurricast)有效地结合了时空数据和统计数据,通过提取具有深度学习的编码器编码器体系结构的特征,并通过梯度增强的树进行预测。我们在2016 - 2019年在北大西洋和东太平洋盆地进行了24小时的提前时间和强度预测,评估我们的模型,并表明它们在秒内计算时达到了当前操作预测模型的可比平均绝对误差和技能。此外,将飓风纳入运营预测的共识模型可以改善国家飓风中心的官方预测,从而通过现有方法突出显示互补物业。总而言之,我们的工作表明,利用机器学习技术结合不同的数据源可以带来热带气旋预测的新机会。
translated by 谷歌翻译
Real-world robotic grasping can be done robustly if a complete 3D Point Cloud Data (PCD) of an object is available. However, in practice, PCDs are often incomplete when objects are viewed from few and sparse viewpoints before the grasping action, leading to the generation of wrong or inaccurate grasp poses. We propose a novel grasping strategy, named 3DSGrasp, that predicts the missing geometry from the partial PCD to produce reliable grasp poses. Our proposed PCD completion network is a Transformer-based encoder-decoder network with an Offset-Attention layer. Our network is inherently invariant to the object pose and point's permutation, which generates PCDs that are geometrically consistent and completed properly. Experiments on a wide range of partial PCD show that 3DSGrasp outperforms the best state-of-the-art method on PCD completion tasks and largely improves the grasping success rate in real-world scenarios. The code and dataset will be made available upon acceptance.
translated by 谷歌翻译